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融合 模拟 退火 的 随机 森林 房价 评估 算法 
丁 肠 钧 天 ， 曹 怀 虎 


(中 央 财 经 大 学 信息 学 院 ,， 北京 100081) 


摘 要 :; 传统 的 随机 森林 房价 评估 算法 存在 着 大 量 参 数组 合计 算 问题 ， 参 数 的 优 劣 对 算法 准确 度 影响 很 大 。 针 对 此 
问题 ， 结 合 随 机 森林 和 模拟 退火 算法 ， 提 出 一 种 融合 模拟 退火 的 随机 森林 房价 评估 算法 。 首 先 ， 通 过 10 次 十 折 交 
又 验证 法 对 参数 进行 敏感 性 测试 ， 选 择 出 对 随机 森林 算法 敏感 的 参数 ; 然后 ， 结 合 模拟 退火 算法 对 敏感 的 参数 迭代 
寻 优 ， 通 过 与 网 格 搜索 算法 、 随 机 搜索 算法 进行 对 比分 析 ， 发 现在 参数 组 合计 算 过 程 中 ， 模 拟 退 火 算 法 在 运行 时 间 
和 算法 准确 率 方面 优 于 网 格 搜索 算法 与 随机 搜索 算法 ， 弥 补 了 网 格 搜索 工法 耗 时 过 长 和 随机 搜索 算法 低 准 确 率 的 缺 
陷 ; 最 后 ， 将 融合 模拟 退火 的 随机 森林 算法 应 用 于 房价 评估 问题 ， 构 成 新 的 房价 评估 算法 。 将 新 算法 与 传统 随机 森 
林 房 价 评传 算法 进行 了 对 比 实验 分 析 ， 结 果 表明 ， 融合 模拟 退火 的 随机 琳 林 房价 评估 算法 误差 值 减少 ， 拟 合 优 度 值 
增加 ， 评 估 的 准确 度 得 到 了 显著 提升 。 
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Housing prices evaluation using random forest algorithm combing with simulated annealing 
” Ding Yangjuntian, Cao Huaihu 
[af (School of Information, Central University Finance & Economics, Beijing 100081, China) 


Abstract: The traditional housing prices evaluation which was using Random Forest algorithm had a large number of 


parameter selection problems. The parameters had great influence on the accuracy of the algorithm. In order to solve this 


problem, this paper combined the Random Forest algorithm and simulated annealing algorithm and proposed a new 
algorithm about the housing prices evaluation. Firstly, according to the different sensitivity of the Random Forest parameters 
uD to the algorithm, this paper tested the sensitivity of the parameters by 10 times 10-cross-validation method, then selected the 
parameters of the algorithm. Secondly, this paper used the simulated annealing algorithm to the sensitive parameters 


iterative optimization. Through comparing to the grid search algorithm and random search algorithm, this paper found the 


simulated annealing algorithm do better than the grid search algorithm and random search algorithm in the running time and 
ED algorithm accuracy. The simulated annealing algorithm made up the defects of the time-consuming and the low-accuracy of 
the random search algorithm in the grid search when selecting parameters. At last, this paper applied the Random Forest 


algorithm combing with simulated annealing to the problem of housing prices evaluation, and formed a new evaluation 


algorithm. Comparing the new algorithm with the traditional Random Forest price estimation algorithm, the results show 
| that the error value of the Random Forest price estimation algorithm with simulated annealing is reduced, the goodness of fit 
value increases, and the accuracy of the evaluation is improved markedly. 


Key words: random forest; Simulated annealing; parameter optimization; housing prices evaluation 


0 引言 [4 表明 不 同 预测 算法 所 达到 的 最 佳 性 能 的 参数 设置 不 同 , 参 
局 数 调 优 是 算法 优化 的 重要 一 步 ， 对 于 随机 森林 算法 ， 参 数 调 

随 着 经 济 发 展 与 城镇 化 进程 的 不 断 推进 ， 越 来 越 多 的 人  ” 优 同 样 重要 。 常 用 的 参数 调 优 方法 为 网 格 搜 索 法 中 和 随机 搜 

将 房产 视 为 一 种 投资 ， 房 地 产 行业 日 渐 火 爆 ， 房 产 交 易 量 日 ” 索 法 四。 网 格 搜索 法 类 似 于 穷 举 ， 准 确 度 较 高 ， 但 在 参数 范 
益 增 加 。 作为 房产 交易 的 必然 环节 , 房价 评估 受到 广泛 重视 。 ，” 围 较 大 的 数据 中 需要 耗费 大 量 的 时 间 , 大 大 降低 了 算法 性 能 ; 


传统 房价 评估 方法 如 市 场 比较 法 、 成 本 法 、 交 易 法 和 回归 算 ”随机 搜索 法 通过 随机 抽样 寻找 最 优 解 ， 在 时 间 效 率 方面 要 远 
法 预测 法 。 在 小 数据 量 的 房价 评估 中 ， 传 统 评估 方法 准确 度 。 远 优 于 网 格 搜索 法 ， 但 该 方法 随机 性 太 强 ， 容 易 陷入 局 部 最 
较 高 。 随 着 数据 规模 增长 ， 传 统 方法 需要 大 量 的 计算 成 本 与 。 优 解 。 文 献 [7] 通 过 优化 决策 树 的 数量 选择 更 高 准确 度 的 子 
人 工 成 本 。 随 着 机 器 学 习 的 发 展 ， 针 对 房价 评估 问题 ,文献 。” 树 ， 提 高 算法 预测 准确 度 。 文 献 [8] 通 过 对 OOB 误差 最 小 化 
[1 中 首次 提出 应 用 神经 网 络 技术 进行 房价 评估 。 文献 [2] 提 出 ”处理 进行 超 参数 估计 ， 拟 获得 近似 最 优 解 。 文 献 [9] 中 改进 的 
应 用 支持 向 量 机 进行 房产 评估 ， 发 现 支 持 向 量 机 算法 可 以 获 。 网 格 搜 索 进行 参数 优化 ， 保 证 了 搜索 到 近似 最 优 组 合 周 边 所 


山 


得 良好 的 预测 效果 。 文献 [3] 中 首次 提出 应 用 随机 森林 的 方法 有 可 能 区 域 ， 提 高 了 网 格 搜索 的 时 效 性 ， 但 对 于 更 大 数据 量 
进行 房价 评估 ， 发 现 随机 森林 可 以 提高 预测 的 准确 度 。 的 问题 时 效 性 仍 不 高 。 
然而 以 上 研究 中 忽略 了 参数 选择 对 于 算法 的 影响 。 文 献 为 提高 随机 森林 房价 评估 算法 参数 寻 优 的 效 度 与 评估 准 
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确 度 ， 本 文 提出 融合 模拟 退火 的 随机 森林 算法 ， 不 
火 逐 步 降温 ， 和 迭代 寻 优 的 特点 ， 凋 
林 房 价 评估 算法 中 ， 进 行 参 数 寻 人 4 
随机 森林 参数 对 算法 敏感 怕 
数 进行 敏感 性 测试 ， 选 择 


ChinaXiv 合 作 期 刊 


: 融合 模拟 退火 的 随机 森林 房价 评估 算法 第 37 卷 第 3 期 


模拟 退 。 ” 数 调 优 过 程 类 似 寻 找 最 优 路 径 的 过 程 ， 不 少 学 者 对 最 优 路 径 


由 合 到 传统 的 随机 森 。 的 方法 进行 研究 0718， 基 于 前 辈 对 于 最 优 路 径 研 究 的 启发 ， 
E 选 择 。 首 先 ， 根据 ”本 文采 用 模拟 退火 算法 解决 算法 参数 寻 优 问题 。 

折 交 叉 验证 法 对 参 模拟 退火 算法 (simulated annealing，SA)09 模 仿 固 体 降 温 
对 算法 敏感 的 参数 ， 其 次 ， 通 过 ”并 寻找 最 优点 的 过 程 。 初 始 温度 了 为 最 高 温度 ， 此 时 固体 震 


模拟 退火 算法 对 敏感 的 参数 迭代 寻 优 ， 并 与 网 格 搜索 算法 、 荡 最 大 ; 随 着 温度 的 降低 , 固体 逐渐 找到 最 优点 并 趋 于 稳定 。 


随机 搜索 算法 进 


模拟 退火 算法 在 运行 
法 与 随机 搜索 算法 ， 弥 六 
问题 ， 最 后 ， 将 融合 模拟 退火 的 


算法 低 准 确 率 的 
法 应 用 于 房价 评 


1 ”相关 研究 


1.1 房价 评估 传统 方法 


与 传统 随机 森林 房价 评估 算法 进 
明 ， 融 合 模拟 退火 的 随机 森林 房 
合 优 度 值 增加 ， 讨 人 


结果 优 解 的 缺陷 。 模 拟 退 火 算法 描述 如 下 : 
评估 算法 误差 值 减少 ， 拟 a) 初始 化 值 x。 
b) 降低 温度 T， 计 算 新 的 解 x'"， 计 算 评 价 函 数值 。 如 


准确 度 得 到 了 提升 。 


房价 评估 传统 方法 有 


比较 法 、 成 本 法 和 交易 法 ， 以 ” 后 没有 更 优 解 ， 则 结束 算法 。 


| 算 过 程 中 ， 从 算法 角度 而 言 ， 模 拟 退 火 算法 从 初始 温度 了 开始 通过 判断 
网 格 搜索 算 评价 函数 接受 优 于 原 函 数 的 解 或 以 波 尔 兹 曼 (Boltzmann) 概 
了 网 格 搜索 算法 高 耗 能 和 随机 搜索 率 函 数 接受 稍 差 一 些 的 解 ， 并 逐步 降温 到 Tmin。SA 算法 是 
随机 森林 算 一 种 启发 式 的 搜索 算法 RU， 在 仆 山 算法 的 基础 上 添加 了 概率 
的 房价 评估 算法 。 将 新 算法 函数 ， 可 以 收敛 到 全 局 最 优 解 ， 弥 补 了 疏 山 算法 陷入 局 部 最 
了 了 对 比 实验 分 析 ， 


让 站 


相对 误差 Ay<0， 或 以 波 尔 兹 曼 概率 exp(Ay/7) 接受 新 解 ， 
接受 ， 则 令 z=x。 
c) 判断 温度 是 否 降 到 Tmin 以 下 ， 或 连续 大 量 次 数 计算 


的 经 验 估 值 法 ， 
屋 价 值 的 价格 。 


方法 需要 大 量 数 ] 
且 没 有 市 场 垄 断 的 情况 ，3 
难以 避免 有 垄断 
税 费 和 正常 的 利润 进行 房 


产 交 易 较 少 的 情 


的 现 值 后 累加 ， 


及 通过 回归 算法 进行 房价 预测 的 方法 。 市 场 比较 法 529 是 常用 
通过 与 周 i 了 J 对比， 得 出 符合 自身 房 
平 估 常 用 方法 ， 但 是 这 种 。 2.1 敏感 性 参数 生成 


且 前 提 假 设 为 房价 稳定 房价 评估 问题 是 回归 问题 的 一 种 ， 本 文选 取 随 机 森林 算 


2 ”融合 模拟 退火 的 随机 森林 房价 评估 算法 


。 成 本 法 适用 


况 ， 而 且 成 本 法 中 的 房地产 


住 与 实际 情况 有 所 出 入 。 交 易 法 53 指 预计 


» 


的 正常 净 收 益 ， 选 
和 
> 


去。 交易 法 适用 于 评 


E 活 中 房价 处 于 波动 状态 ， 且 法 解决 此 类 问题 ， 相 对 于 传统 算法 ， 如 线性 回归 与 支持 向 量 
网。 成 本 法 60 即 建造 成 本 加 上 各 项 机 ， 随 机 森林 受 参 数 的 影响 较 大 ， 参 数 的 选择 尤为 重要 ， 为 
于 房 地 了 节省 工作 实效 ， 提 高 算法 运行 效率 ， 本 文 对 敏感 性 参数 进 
的 利润 往 行 提取 ， 将 敏感 性 参数 加 入 算法 的 调 优 。 随 机 森林 算法 的 主 
价 对 象 未 来 各 期 要 参数 及 其 对 算法 的 影响 如 下 : 
价 时 点 上 a) n_estimators 。 数 据 类 型 为 integer， 表 示 随 机 森林 中 决 
价值 的 方 策 树 的 数量 , 文献 [21] 表 明 较 多 的 决策 树 可 以 提高 算法 性 能 ， 


房地产 ， 但 其 中 ”但 同时 过 多 的 决策 树 数量 也 会 影响 算法 运行 效率 进而 影响 性 


的 折旧 率 的 计算 


也 有 不 少 学 者 应 用 


中 利用 面板 分 位 数 


房价 评估 三 大 方法 ， 能 ， 到 达 一 定数 量 后 ， 性 能 趋 于 稳定 。 
房价 进行 相关 分 析 , 如 
] 收 入 是 拉动 ” 练 集 最 大 特征 数 ， 此 参数 增加 一 般 能 提高 算法 的 性 能 ， 但 是 


文献 [13] b) max_features。 数 据 类 型 为 int、float、string， 表 示 训 


我 国 大 中 城市 房价 的 主 
归 (GWR) 算法 , 探索 4 


理 加 权 回 ” 也 降低 了 算法 的 速度 以 及 单 棵 树 的 多 样 性 ， 文 献 [22] 表 明 当 


:应 政策 对 房价 的 影响 机 制 。 研究 ”所 有 特征 都 进行 分 裂 ， 反 而 会 影响 算法 准确 性 。 


表明 ， 其 他 条 件 不 变 的 前 提 下 ， 土 

有 显著 的 负 效 应 。 

1.2 传统 的 随机 森林 房价 评估 算法 
随机 森林 回归 算法 05 是 Bagging 算法 [ 


展 ， 是 多 个 d) min_samples_leaf。 数 据 类 型 为 int、float， 表 示 叶 子 


弱 学 习 器 输出 为 强 学 习 器 的 过 程 。 传 统 的 随机 森林 房价 评估 ”节点 最 小 样本 数 ， 叶 作为 决策 树 的 末端 节点 ， 较 小 的 叶子 更 


和 结构 对 房价 具 c) min_samples_split。 数 据 类 型 为 int、float， 表 示 划 分 


节点 所 需 最 小 样本 数 ， 如 果 达 到 该 值 则 不 再 进行 划分 ， 文 献 
[23] 表 明 此 值 对 算法 效果 影响 不 大 。 


法 ， 主要 通过 了 
对 房价 进行 评估 。3 
a) 数据 采集 。 


b) 数据 预 处 理 。 


D={(X, yD), (x2, y2) (Cn ym)} 。 


”输入 相关 信息 ， 借 助 随机 森林 


可 归 算法 ”易于 算法 的 降 噪 。 


e) max_leaf nodes。 数 据 类 型 为 int， 表 示 限 制 最 大 叶子 


通过 网 络 息 虫 或 者 现 有 软件 


数据 进行 采 节点 数 ， 可 以 防止 过 拟 合 。 


居 进 行 整理 形成 数据 重 


c) 特征 选择 


Fo 


运用 相关 算法 如 决策 树 、 逻 辑 


出 对 算法 影响 较 大 的 特征 变 
d) 算法 训练 。 将 数 扩 
成 强 学 习 器 算法 。 


昌 集 与 初始 化 参数 进 


人 ) max_depth。 数 据 类 型 为 nt， 表示 决策 树 的 最 大 深度 ， 
取决 于 数据 的 分 布 情 况 ， 当 大 于 此 值 则 不 再 分 裂 。 
针对 不 同 问题 ， 随 机 森林 算法 达到 最 优 性 能 参数 选择 不 


归 等 选择 ” 同 , 各 参数 对 算法 敏感 程度 也 不 同 ， 文 献 [1] 采 用 交叉 验证 的 


方法 进行 参数 敏感 性 测试 ， 依 此 ， 本 文采 取 10 次 10 折 交 叉 


算法 训练 , 形 ”验证 平均 误差 率 对 算法 主要 参数 进行 敏感 性 测试 ， 挑 选 出 针 


对 房价 评估 问题 的 有 效 参数 。 


e) 算法 应 用 。 


1.3 ”模拟 退火 算法 


多 


搜索 算法 类 似 于 穷 举 算法 ， 将 所 有 参数 结果 进行 
选 出 最 优 值 。 随 机 搜索 算法 增加 了 随机 的 特性 ， 
数值 进行 最 优选 择 ， 然 而 这 种 算法 容易 陷入 


+ 进行 评估 。 10 折 交 叉 验 证 的 方法 是 用 来 测试 算法 准确 性 的 常用 方 


法 。 将 数据 集 分 成 10 份 ， 轮 流 将 其 中 9 份 作为 训练 数据 、1 


常用 的 参数 调 优 算法 有 网 格 搜索 法 、 随 机 搜索 法 。 网 格 份 作为 测试 数据 进行 实验 。 每 次 实验 都 会 得 出 相应 的 正确 率 


:组 合计 算 ， “(或 差错 率 )。10 次 结果 正确 率 (或 差错 率 ) 的 平均 值 作为 


选取 部 分 参 。 最 终结 果 。 本 文 对 各 参数 分 别 进行 10 次 交叉 验证 ， 并 选取 
P 最 优 解 。 参 ”10 次 差错 率 的 平均 值 作为 对 算法 精度 的 估计 值 。 
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2.2 


文 提 
的 效 


过 于 
而 过 
评估 
数 的 


丁 肠 钧 天 ， 等 : 


融合 模拟 退火 的 随机 森林 算法 描述 

为 使 随机 森林 算法 在 房价 评估 问题 中 达到 最 佳 性 能 ， 本 
出 将 模拟 退火 与 随机 森林 算法 进行 融合 ， 提 高 参数 调 优 
率 ， 降 低 算 法 误差 率 。 
模拟 退火 融合 而 成 的 不 同 算法 ， 评 价 函数 的 选择 不 同 ， 
复杂 的 评价 函数 会 增加 算法 的 消耗 ,不 利于 算法 的 运行 
于 简单 的 评价 算法 可 能 存在 准确 度 不 够 的 情况 。 就 房价 


融合 模拟 退火 的 随机 森林 房价 评估 算法 


样 集 Dt。 


节点 处 从 p 个 特征 中 选取 kX 个， 再 
小 值 的 方法 ， 
第 个 特征 值 小 于 当前 特 4 
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(a) 从 D 中 进行 m 次 有 放 回 随机 采样 , 形成 m 个 新 的 采 


(b) 将 采样 集 作 为 输入 训练 决策 树 Gt， 在 决策 树 的 分 裂 
采取 Gain_o 计算 方差 最 
FE 及 阔 值 作为 分 类 变量 ， 当 前 节点 


FE 划分 阔 值 被 划分 到 左 节点 ， 其 余 


找到 最 优 特 和 


被 划分 为 右 节 点 。 重 复 此 步骤 知道 所 有 节点 都 已 经 被 训练 或 


而 言 ， 预 测 误差 是 评价 函数 较 优 的 选择 。 考 虑 到 评价 函 
对 比 情况 ， 选 取 预 测 值 和 真实 值 差 值 与 预测 值 比值 的 绝 


对 值 


有 .OH 


认 值 
输入 
比较 
新 的 
当 所 
多 次 
温 ， 


代码 


阔 值 


机 森 


越 小 » 
越 大 。 


作为 评价 函数 并 取 其 均值 。 评 价 函 数 表示 如 下 : 


(y_pred—y_test) 


Cs y_pred (1) 


: y_pred 表示 预测 值 ，y_test 表示 真实 值 。 评 价 函 数值 
算法 预测 误差 越 小 ; 评价 函数 值 越 大 ， 算 法 预测 误差 


模拟 退火 算法 中 ， 初 始 温度 设置 为 T， 本 文 工 值 取 其 默 
1 000， 将 初始 值 x*， 初 始 温度 T， 初 始 评价 函数 值 CGO) 
算法 内 , 开始 迭代 , 同时 创建 新 的 参数 x ,并 计算 C(x) ， 
C(%) 与 C(x) 。 当 误差 值 减 小 ， 即 C(x) 小 于 CQ) 时 ,接受 
参数 值 x ”, 或 者 在 波 尔 兹 曼 概 率 内 接受 新 的 参数 值 x ”; 
有 取 值 范围 内 的 参数 都 进行 迭代 后 ,降低 温度 ;， 当 经 过 
夫 代 与 降温 后 ， 若 达到 最 小 温度 或 没有 更 优 解 ， 结 束 降 
输出 参数 值 。 融 合 模 拟 退 火 的 随机 森林 参数 调 优 部 分 伪 
如 算法 1 所 示 。 

算法 1 

SA_Parameters 伪 代 码 如 下 : 

输入 : 初始 温度 工 初始 参数 值 x*， 最 小 温度 Tmin。 
输出 : 调 优 参 数值 x。 

mp # 大 为 迭代 次 数 m 为 步 长 , p 为 概率 


1. Initizlize 


2. for t=T to Tmin do 

3 for i=1 to k do 

4. X’=X+m 

3 . icCc )<c(Cr or exp(-c(x NT)>p 
6 

7 


8. end for 

9. end for 

10. OutPut x 

此 得 到 的 x 为 调 优 参数 的 序列 集 ， 融 合 模拟 退火 的 随 
林 算 法 ， 替 代 了 传统 随机 森林 的 参数 选择 算法 ， 可 以 高 


速 
预测 ; 
2.3 


I 效 进行 参数 调 优 ， 有 利于 提升 整个 算法 运行 效率 与 算法 


住 确 率 。 
融合 模拟 退火 的 随机 森林 房价 评估 算法 构建 
将 融合 模拟 退火 的 随机 森林 算法 应 用 于 房价 评估 数据 


训 乡 
估算 
形式 
相关 


N， 分 裂 节 点 数 大 确定 特 生 


过 程 


练 出 新 的 房价 评估 算法 。 


融合 模拟 退火 的 随机 森林 房价 评 


法 首先 将 房屋 数据 集 整 理 为 D={G6,yD,(W2,y2),…xym)} 的 
作为 输入 集 进行 训练 ， 数 据 集 中 每 个 子 集 x 代表 与 房价 
的 各 项 特征 ，y 为 此 房价 真实 值 ， 然 后 确定 决策 树 总 数 


被 标记 为 叶子 节点 。 


出 。 


3.1 


end for 


c) 每 棵 决策 树 都 进行 训练 后 组 成 房价 评估 算法 fo 输 


实验 分 析 与 结果 


实验 数据 集 
本 文选 取 kaggle 竞赛 中 美国 某 地 区 成 交房 屋 数 据 ， 数 据 


包括 81 个 特征 变量 , 房屋 属性 值 包 含 房 屋 类 型 MSSubClass、 


小 区 类 型 MSZoning、 直 线 距 离 LotFrontage、 房 屋面 积 
LotArea、 


销售 


性 


月 售 额 MoSold、 


年 售 额 YrSold、 销 售 类 型 SaleType、 


状态 SaleCondition 、 销 售 价格 SalePrice 等 81 个 房屋 属 


涵盖 了 房屋 内 部 基本 属性 ， 与 周边 环境 状况 ， 能 够 全 方 


立 的 展示 房屋 基本 信息 。 
将 SalePrice 作为 y 变量 ,其 他 特征 作为 x 变量 进行 算法 训练 。 


房屋 部 分 数据 集 如 表 1 所 示 。 本 文 


由 表 1 可 得 ，x 变量 中 包含 部 分 分 类 数据 ， 本 文采 用 one-hot 
编码 对 这 部 分 数据 进行 特征 化 处 理 。 缺 失 值 采用 均值 进行 填 
充 ， 在 进行 数据 平滑 化 处 理 后 ， 将 数据 划分 为 训练 集 与 测试 
集 ， 训 练 集 占 比 0.7。 
表 1 实验 部 分 数据 集 
Table 1 Part of experimental data Set 

ld MSSubClass MSZoning LotFrontage LotArea 

1 60 RL 68 11250 

2 70 RL 60 9550 

3 60 RL 84 14260 

4 20 RL 4 10084 

5 50 RM 51 6120 
3.2 参数 敏感 性 测试 


随机 森林 算法 敏感 性 参数 测试 ,各 参数 取 值 如 表 2 所 示 。 
表 2 参数 敏感 性 实验 取 值 


Table 2 Values of parameter sensitivity test 


算法 参数 参数 取 值 


min_samples_split 
min_samples_leaf 


max_leaf nodes 


n_estimators 100,200,300,500,700,1000,1200 
0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9 
2,3,4,5,6,7,8,9,10 
2,3,4,5,6,10 
100,150,200,300,400,500,700,1000,1200 
max_depth 2,4,6,8,10,20,60 


max_features 


Es 


E 数 p， 进 入 算法 训练 ， 具 体 训练 


如 下 ; 

输入 ，D={CoyDCoy (Cony] 。 

输出 : 房价 评估 算法 /oo 。 

a) 确定 决策 树 总 数 N， 超 参数 k， 特 征 数 p 
b) 对 每 个 决策 树 做 如 下 处 理 : 

fori=] to N 


本 文 取 10 次 10 折 交叉 验证 差错 率 的 均值 作为 评价 标准 ， 


和 下越 小 ， 算 法 的 准确 率 越 高 。 在 保证 其 他 参数 为 默认 参数 的 
前 提 下 ， 选 取 单一 参数 不 同 取 值 ， 形 成 纵 坐 标 为 10 次 10 折 
交叉 验证 差错 率 的 均值 (cv_error) ， 


横 坐 标 为 参数 不 同 取 值 


的 图 


像 。 观 察 图 像 走势 ， 


若 误 差 率 走势 明显 或 在 某 个 值 后 误 


差 率 基 本 保持 不 变 ， 


则 认为 参数 不 敏感 ， 若 误差 率 在 随 着 参 


数 变动 趋势 不 稳定 , 在 多 处 均 出 现 最 小 值 , 则 认为 参数 敏感 。 


各 参数 对 算法 敏感 性 


结果 如 图 1~6 所 示 。 
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n_estimators vs cv error 


01524 1 
01522 1 
01520 1 
5 
5 01518 | 
01516 ] 
01514 ] 
0 1512 1. 下 T T T er 
250 500 750 1000 1250 1500 1750 2000 
n_estimators 
图 1 n_estimators 参数 敏感 性 测试 结果 
Fig. 1 Sensitive test of n_estimators 
max features vs cv error 
0168 1 
0166 1 
0164 
E 
5 0162 | 
o 
0160 1 
0158 ] 
6 T T T T 
02 04 06 08 10 


max features 


图 2 max_features 参数 敏感 性 测试 结 


Fig.2 Sensitive test of max_features 


min_samples_split vs cv error 
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max_leaf_nodes vs cv error 
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max_leaf nodes 
图 5 max_leaf_nodes 参数 敏感 性 测试 结果 
Fig.$5 Sensitive test of max_leaf nodes 
max_depth vs cv error 
0.24 
023 
0.22 
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和 020 
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0.18 
017 
0.16 
0 1 20 加 加 5 印 
max_depth 
图 6 max_depth 参数 敏感 性 测试 结果 图 
Fig.6 Sensitive test of max_depth 
由 图 1~6 可 知 ， 经 过 10 次 10 折 交 叉 验 证 的 参数 敏感 性 
测试 ， 发 现 n_estimators、max_feature、max_leaf_nodes 三 个 
参数 并 不 存在 唯一 最 小 值 使 得 算法 最 优 ， 即 算法 训练 数据 变 


化 时 ， 三 个 参数 的 取 值 变化 对 交叉 验证 差错 率 影响 很 大 ， 


此 本 文 认为 这 三 个 参数 对 此 回归 算法 敏感， 


项 。 


作为 参数 优化 选 


min_samples_split 即 划 分 节点 所 需 最 小 样本 数 只 在 四 个 


左右 交叉 验证 差错 率 最 低 ,min_samples_leaf 即 叶子 节点 最 小 


样本 数 只 在 五 个 左右 交叉 验证 差错 率 最 低 ，max_depth 


即 决 


策 树 的 最 大 深度 在 大 于 10 后 对 交叉 验证 差错 率 影 响 相 差 不 


T 
2 3 4 5 6 ’ 8 9 10 
min_samples_split 


图 3 min_samples_split 参数 敏感 性 测试 结果 


Fig.3 Sensitive test of min_samples_split 


min_samples leaf vs cv error 


CV_error 


2 3 4 5 6 7 8 9 10 
min_samples leaf 
图 4 ”min_samples_leaf 参数 敏感 性 测试 结果 


Fig.4 Sensitive test of min_samples_leaf 


0.168 
0166 
0164 
0.162 
0.160 


大 。 


实验 结果 表明 min_samples_split、min_samples_leaf、 


max_depth 三 个 值 对 回归 算法 不 敏感 ， 因 此 不 做 参数 优化 ， 
且 各 参数 取 值 为 min_samples_split=4、min_samples_leaf=5、 
max_depth=10 。 


3.3 


参数 设置 
本 文 根 据 参数 敏感 性 测试 结果 ,分 别 采 用 随机 搜索 算法 、 


网 格 搜 索 算法 和 模拟 退火 算法 对 n_estimators, max_features， 
max_leaf_nodes 三 个 参数 进行 优化 ， 取 值 为 表 2 中 三 个 参数 


范围 


这 里 借助 sklearn 中 的 随机 搜索 算法 与 网 格 搜索 算法 包 ， 


通过 设 定 随 机 森林 算法 与 需要 调 优 参数 的 取 值 范 围 进 行 参数 


选择 。 同 时 ， 再 次 应 用 交叉 验证 计算 算数 平均 值 〈 记 为 


mean_validation_score ) 


同人 


与 系统 运行 时 间 ( 记 为 times) 共 
为 参考 数据 ， 比 较 各 项 算法 性 能 。Mean_validation_score 


反映 了 调 优 后 整个 算法 的 预测 能 力 ， 即 通过 不 同 算法 选 出 的 
参数 组 合 对 算法 性 能 的 优化 情况 ， 系 统 运行 时 间 times 反映 


算法 的 时 效 性 。 三 种 算法 参数 选择 结果 与 算法 性 能 比较 情况 
如 表 3 所 示 : 
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定稿 丁 肠 钧 天 ， 等 : 


表 3 参数 调 优 结果 与 算法 性 能 


Table 3 Results of parameter tuning and algorithm performance 


算法 参数 取 值 time/s mean_validation_score 
网 格 搜 索 ”{1200,500,0.3} ”968.02 0.887 
随机 搜索 ” {300,300,0.5} ”146.512 0.862 
模拟 退火 {300,500,0.3} ”125.443 0.884 
表 3 可 得 随机 搜索 算法 的 运行 时 间 为 125.443 s， 模拟 


退火 算法 的 运行 时 间 为 146.512 s， 网 格 搜索 算法 的 运行 


为 


火 算法 优 于 网 格 搜索 算法 。 


时 间 
随机 搜索 算法 与 模拟 退 
从 交叉 验证 平均 得 分 可 以 看 出 ， 


968.02 s， 在 系统 运行 时 间 方 面 ， 


网 格 搜索 算法 的 准确 度 最 高 为 0.887， 也 验证 了 网 格 搜 索 算 


法 高 运行 时 间 、 
模拟 退火 算法 参 


高 准确 度 的 特点 。 在 运行 时 间 近 似 的 情况 下 ， 
> 数 调 优 后 ， 算 法 准确 度 为 0.884 优 于 随机 搜 


索 算法 。 
最 优 算法 ， 可 以 弥 


综合 算法 运行 时 间 与 算法 准确 度 ， 模 拟 退 火 算法 为 
补 传统 算法 的 不 足 ， 能 够 达到 快速 有 效 地 


选择 最 优 参 数 的 作用 。 


3.4 


评定 指标 MSE、 
( 均 方 误差 ) 
MSE 越 小 说 明 算 法 
是 MSE 的 平方 根 ， 


评价 指标 

本 文选 取 两 类 算法 考量 指标 ， 第 一 类 采用 回归 算法 常见 
RMSE、R2 三 个 指标 进行 评定 。 其 中 MSE 
代表 预测 值 与 真实 值 的 误差 平方 的 期 望 值 ， 
具有 更 好 的 精度 ; RMSE 〈 均 方 误差 根 ) 
便于 在 视图 中 观察 ;，R*( 拟 合 优 度 ) 反 


映 了 自 变量 对 因 变 量 的 可 解释 性 ， 
大 越 好 ， 如 果 小 于 0， 则 预测 算法 


取 值 小 于 等 于 1， 且 R? 越 
不 如 基准 算法 。 三 个 指 


标 分 别 定义 如 下 : 


(2) 


(3) 


R? 26- Ja- 


n 为 数据 集 个 数 ，7i 为 评估 结果 ; i 为 真 


(4) 


式 (2)~(4) 中 : 


实 值 。 


点 图 的 方式 进行 


纵 4 


另外 ， 本 文 将 算法 拟 合 情况 作为 第 二 考量 指标 ， 并 以 散 
展示 ， 散 点 图 以 真实 值 为 横 坐 标 ， 预 测 值 为 


标 ， 在 y=x 这 条 线 上 ， 预 测 值 与 真实 值 相同 ， 越 多 的 点 


聚 自 


3.5 


集 在 y=x 线 上 ， 算 法 拟 合 度 越 好 ， 预 测 准 


确 度 越 高 。 


算法 对 比 与 分 析 
经 过 融合 模拟 退火 的 随机 森林 算法 ， 调 优 参 数 


n_estimators 、max_features、max_leaf nodes 的 最 终 取 值 分 别 


融合 模拟 退火 的 随机 森林 房价 评估 算法 


值 为 纵 坐 标 制 


7、 
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作 散 点 图 ， 参 数 调 优 前 后 算法 的 拟 合 情 况 如 图 


8 所 示 。 


Predicted 
已 
Ny 
© 


110 
1051 ， 
10.5 11.0 11.5 12.0 12.5 13.0 13.5 
Measured 
图 7 参数 调 优 前 算法 拟 合 情 况 
Fig.7 Fitting situation of algorithm before parameter tuning 
13.5 
13.0 
12.5 
12.0 
11.5 
11.0 
10.5 


图 8 参数 调 优 后 算法 拟 合 情 况 
Fig.8 Fitting situation of algorithm after parameter tuning 


7 中 数据 点 分 布 较 散 ， 且 预测 值 并 不 稳定 。 从 图 8 中 


可 以 看 出 ， 进 行 参 数 调 优 后 ， 数 据点 更 加 集中 在 =* 附近 ， 
对 比分 析 可 得 ， 参 数 调 优 后 算法 数据 点 分 布 更 加 集中 ， 算 法 
拟 合 情 况 好 于 参数 调 优 前 ， 这 也 验证 了 MSE、RMSE、R2 
三 个 值 的 变化 ， 证 明 模 拟 退 火 算法 进行 参数 调 优 后 ， 算 法 准 
确 率 有 所 提升 。 
3.6 与 其 他 算法 对 比分 析 
融合 模拟 退火 的 随机 森林 算法 与 房价 评估 常用 算法 BP 
神经 网 络 算法 、 支 持 癌 量 机 算法 形成 的 房价 评估 算法 在 三 个 
量化 评价 指标 上 对 比 的 实验 结果 如 表 5 所 示 。 
表 5 各 类 评估 算法 对 比 结果 
Table5 Comparison results of algorithms 
BP SVM SA_RF 
MSE 0.03204 0.04399 0.02269 
RMSE 0.17899 0.20973 0.15062 
R^2 0.80842 0.73696 0.86434 


为 300、500、0.3。 本 文 首先 对 融合 模拟 退火 算法 前 后 算法 
性 能 进行 对 比 ， 结 果 如 表 4 所 示 : 
表 4 算法 调 优 前 后 对 比 结果 
Table 4 Comparison results of algorithm tuning 
参数 调 优 前 参数 调 优 后 
MSE 0.039792505 0.02151499 
RMSE 0.199480587 0.14667991 
R^2 0.762048123 0.87134426 
表 4 可知， 参数 调 优 前 MSE 的 值 为 0.039 792 505， 
进行 参数 调 优 后 降 到 了 0.021 514 99， 算 法 精度 得 到 了 提升 


RM 


提升 到 0.871 344 26， 说 明 自 变量 对 因 变 量 的 可 解释 性 增强 ， 
即 算法 拟 合 情 况 更 优 ， 算 法 预测 ; 
算法 参数 调 优 前 后 拟 合 情 况 ， 


SE 的 值 与 MSE 变化 相同 。 拟 合 优 度 的 值 从 0.762 048 123 


E 确 度 增 强 。 为 进 
本 文 以 


步 观 察 
天 值 为 横 坐 标 ， 预 测 


神经 网 络 算法 、 


融合 模拟 退火 的 随机 森林 算法 与 房价 评估 常用 算法 BP 
支持 向 量 机 算法 形成 的 房价 评估 算法 的 拟 合 


情况 如 图 9~11 所 示 。 


评估 算法 (图 中 简称 为 SA_RF) MSE 值 最 小 为 0.023，BP 
神经 网 络 评估 算法 (MSE=0.032) 
(MSE=0.044 ) 均 大 于 此 值 ;新 算法 的 拟 合 


由 表 5 及 图 9~11 可 知 ， 融 合 模拟 退火 的 随机 森林 房价 


与 支持 向 量 机 评估 算法 
优 度 值 R2 为 0.864 


大 于 BP 神经 网 络 评估 算法 〈(R2=0.808) 与 支持 向 量 机 评估 
算法 〈R2=0.737) ， 拟 合 情 况 图 中 ， 新 模型 的 数据 点 更 多 的 
聚集 在 y=x 这 条 线 上 ， 与 R2 的 大 小 情况 相符 。 综 合 各 项 指 
标 值 ， 新 算法 的 误差 值 最 小 ， 拟 合 程度 最 高 
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图 9 BP 神经 网 络 评价 指标 值 及 算法 拟 合 情 况 


Fig.9 Evaluation index of BP neural network and algorithm fitting 


diagram 
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图 10 支持 向 量 机 评价 指标 值 及 算法 拟 合 情 况 
Fig. 10 Evaluation index of SVM and algorithm fitting diagram 
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图 11 SA_RF 评价 指标 值 及 算法 拟 合 情 况 图 


Fig.9 Evaluation index of SA_RF and algorithm fitting diagram 


4 ”结束 语 

通过 分 析 传 统 房价 评估 方法 ， 本 文 提 出 一 种 融合 模拟 退 
火 的 随机 森林 算法 进行 房价 评估 ， 形 成 房价 评估 模型 。 通 过 
对 比 融合 模拟 退火 算法 前 后 模型 以 及 其 他 房价 评估 常用 模 
型 ， 发 现 融合 模拟 退火 的 随机 森林 房价 评估 模型 拟 合 情 况 更 
优 ， 评 估 误 差 率 更 低 。 

然而 本 文 仍 存 在 一 些 缺 陷 ， 如 模拟 退火 算法 的 初始 温度 
T， 只 是 设置 为 常用 温度 1000， 并 未 作 具 体 讨论 。 在 接 下 来 
的 工作 中 ， 将 对 初始 温度 进行 考量 ， 选 取出 最 适合 房价 评估 
模型 的 温度 ， 同 时 ， 也 会 结合 我 国 的 国情 特色 将 模型 应 用 到 
我 国 房价 数据 研究 。 
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